
Ressources linguistiques ukrainiennes pour NOOJ

Olena Saint-Joanis, 
CRIT, Le Centre de Recherches Interdisciplinaires et Transculturelles, Université de Franche-Comté, Besançon, France
CREE, Le Centre de recherche Europe-Eurasie, INALCO, Paris, France

############################################################################
COMPOSITION DU MODULE LINGUISTIQUE UKRAINIEN:
(Dictionnaire, textes et grammaires morphologique et syntaxiques)

############################################################################
DICTIONNAIRE (fichier .nod dans le dossier lexical analyses)

Cette version contient un dictionnaire complet opérationnel  Ukr_dictionary_2022_V1. 
La liste de mots (lemmes) a été récupérée dans le dictionnaire Open Source version 2.9.1 (A. Rysin, 2016) https://github.com/brown-uk/dict_uk, complétée puis étiquetée manuellement (étiquetage POS) et compléter notamment par les adverbes, prépositions, et interjections supplémentaire.

Le dictionnaire couvre la langue normative. Les mots de sourjik, dialectismes, les formes archaïques, les mots avec les fautes de frappe ou des lettres mélangées (cyrillique/latin) sont notés après l’analyse comme inconnus (UNKNOWN) 
Les entrées lexicales sont accordées aux paradigmes qui se trouvent dans les fichiers .nof (dans le dossier lexical analyses) :
1) VERB_Pardadigms_2022_V1 
2) OTHER_Pardadigmes_2022_V1 

Le dictionnaire contient 167 098 et reconnait 3 837 973 formes. Il contient :

1) 13 176 entrées verbales dont 6 604 verbes imperfectifs auxquels sont associés les verbes perfectifs par la moyenne de la dérivation (DRV=). 
Les verbes postfixés en -СЯ sont entrés dans le dictionnaire sans leur postfixe.  335 verbes qui n'existent pas sans leur postfixe sont notés comme NW (non-word) et les verbes associés à ces entrées sont détectés grâce à une grammaire morphologique. 
Les variantes phonétiques pour les verbes avec les préfixes  (В-/ У-, ВІД-/ОД-/ОТ-) sont retirées du dictionnaire et sont reconnues grâce aux grammaires morphologiques. 
Les participes sont inscrits dans le dictionnaire comme entrées indépendantes (13 070 mots).
2) 74 838 noms + 534 abréviations déchiffrées
3) 51 135 adjectifs
4) 13 484 adverbes
5) 144 numérales
6) 105 pronoms
7) 119 conjonctions
8) 143 interjections
9) 175 prépositions
10) 135 particules
11) 39 prédicats

############################################################################
TEXTES  (fichiers .not dans le dossier  Projects) 
Deux extraits de textes littéraires prosaïques  (source : http://www.ukrlib.com.ua) :

1) Іван Нечуй-Левицький. Без пуття. - 7 349 5 mots
2) Старицький Михайло - Останні орли. - 31 32 5 mots
Un texte littéraire poétique (source : http://www.ukrlib.com.ua) :
3) Тарас Шевченко. Катерина - 1 726 mots
4) Deux extraits des articles - 1 240 mots (https://www.bbc.com/ukrainian) :
- "У нас дві війни". Як в Україні борються з корупцією. Джеймс Вотерхауз. Кореспондент BBC в Україні.
- У древньої мумії виявили золоте серце і язик. Навіщо вони були потрібні.

############################################################################
GRAMMAIRES MORPHOLOGIQUES (fichier .nog dans le dossier  Lexical Analysis)
Quelques grammaires morphologiques pour produire des mots absents du dictionnaire : 

1) Verbes_Sia__2022_V1 =>produit les verbes en -СЯ
2) Verbes_PrefPlus_2022 (Priorité Level=Low)  => produit les verbes perfectifs ou imperfectifs préfixes (ou double préfixés) secondaires
3) VebeT'_forme_orale_2022_V1 => produit la forme orale (en -ТЬ) de l’infinitif 
4) Participle_vers_Impersonal_2022_V1  => produitsla forme impersonnelle du verbe à partir du participe
5) Adjectives_Affective_Excessive_Partitive_Negative_2022_V1  (Priorité Level=Low) et Adverb__Affective_Excessive_Partitive_Negative_2022_V1  (Priorité Level=Low) =>  produit des formes suffixées ou préfixées
6) Adjective_Comparative_Superlative_HighestSuperlative_2022_V1 (Priorité Level=Low)   et Adverb_Comparative_Superlative_HighestSuperlative_2022_V1 (Priorité Level=Low)  => produit des formes du comparatif,  du superlatif, et du superlatif renforcé
7) Adjective_compound_2022_V1 (Priorité Level=Low)  => produit d’adjectifs composés du type (давньоєврейський)
8) Adjective_Short_2022_V1 => produit la forme courte des adjectifs masculins
9) Adjective_Belonging_2022_V1 (Priorité Level=Low) => produit les adjectifs d’appartenance à partir des noms
10) Adjective_vers_Adverb_2022_V1 (Priorité Level=Low) => produit les adverbes à partir des adjectifs
11) Abstract_names_Ist_2022_V1 (Priorité Level=Low) => produit des noms abstrait en –ІСТЬ
12) Pref_ne_2022_V1(Priorité Level=Low)  => produit des formes avec le préfixe НЕ-
13) Formes_od_vid__2022_V1, Formes_u_v_2022_V1 (Priorité Level=Low) => produits des formes avec des variantes phonétiques
14) Ortographe_G_H_2022_V1 (Priorité Level=Low) => produit des formes avec l’ancienne norme d’orthographe des mots  en Г/Ґ 
15) Foreign_words_2022_V1 => reconnait les mots en latin
16) Noun_Proper_2022_V1  (Priorité Level=Low) => reconnait les mots en majuscule en tant que mots propres.
Attention : pour éviter le double étiquetage certaines grammaires doivent être ajoutées dans l’onglet  Preferences avec le niveau de priorité bas (Priority Level=Low) tandis que le dictionnaire principale doit être ajouté avec le niveau de priorité bas (Priority Level=High). 

############################################################################
GRAMMAIRES SYNTAXIQUES
Quelques grammaires syntaxiques de désambiguïsation (fichier .nog): 

1) Conjunction_Particle_Preposition_Adverb_2022_V1
2) GroupeNominal_2022_V1
3) Genitive_2022_V1
4) Nominative_2022_V1
5) Accusative_2022_V1
6) Locative_2022_V1
7) Instrumental__2022_V1
8) Dative__2022_V1
9) Vocative_2022_V1
10) Adverb_Manner_2022_V1
11) VERBS_2022_V1
Attention :
1) L’ordre des grammaires peut s'avérer important. Par exemple si la grammaire "VERBS_2022_V1" est positionnée en premier alors le mot "мати" est traité d'abord comme verbe et puis comme nom. 2) Vu la complexité de l’ordre des mots dans la phrase ukrainienne, certaines syntaxes sont exclues de ces grammaires et de ce fait la désambiguïsation totale n’est pas garantie.
3) Les grammaires qui désambiguïsent les mots-outils ne sont pas complètes et méritent d'être élargies et perfectionnées.

Merci de signaler toute erreur à l'auteur olena.saintjoanis@gmail.com

        
